神奇的多元统计

1.马氏距离欧氏距离各自的优缺点(两者之间的区别联系)?

1.马氏距离:

(1)公式:$d_m^2(X,Y)=(X-Y)’{\Sigma}^{-1}(X-Y)$

(2)缺点:计算不便,须事先知道$\Sigma$,并计算$\Sigma^{-1}$,计算过程会产生误差,只有数据量较大时误差才较小

(3)优点:既不受量纲影响,也不受相关性影响

2.欧氏距离: 

(1)公式:$d_{X,Y}^2=(X-Y)^{T}(X-Y)$

(2)缺点:受各指标间量纲的差异以及数量级不同的影响,受不同指标之间相关性的影响

(3)优点:在计算方法和理解上较为简单

2.$k-means$的思想、步骤?

1.思想:

把每个样品聚集到其最近形心(均值)类中.

2.步骤:

(1)确定要分的类别数目$k$

(2)确定$k$个类别的初始聚类中心

(3)根据确定的$k$个初始聚类中心,依次计算每个样本到$k$个聚类中心的距离,并根据距离最近的原则将所有的样本分到事先确定的$k$个类别中

(4)根据所分成的$k$个类别,计算出各类别中每个变量的均值,并以均值点作为新的$k$个类别中心。根据新的中心位置,重新计算每个样本到新中心的距离,并重新进行分类

(5)重复第4步,直到满足终止聚类条件为止

3.系统聚类的思想方法和步骤? 

1.思想:

通过度量样本之间的相似性来将样本相似度最高的样本聚为一类,重复进行下去,逐渐减小类别数目,直到聚类数为1

2.步骤:

首先将$n$个待聚类样本点分为$n$类,之后计算每个样本点(即每一个类)与所有样本点(其他所有类)之间的相似性(一般是距离),将相似性最强(即距离最小)的两个类合并为一个新的类,然后重新度量相似性,这样子依次下去,直到满足某个条件为止(无条件的话就默认是类别数变为$1$),系统聚类结束。

4.$Fisher$判别法的思想、方法?

1.思想:

投影,将$k$组$p$维数据投影到某一个方向,使得组与组之间的投影尽可能地分开,然后再选择合适的判别规则,将新的样品进行分类判别。

2.方法:

从$k$个总体中抽取具有$p$个指标的样本观测数据,借助方差分析的思想,构造一个线性判别函数,系数确定的原则是使得组内平方和尽可能小,组间平方和尽可能大,对于一个新的样本,只需将它的$p$个指标代入判别函数,再根据一定的判别规则即可判别新的样品属于哪个总体

5.聚类分析判别分析的区别与联系?

1、基本思想不同

聚类分析是根据研究对象特征对研究对象进行分类的一种多元分析技术,在未知各样本类别的情况下,把性质相近的个体归为一类, 使得同一类中的个体都具有高度的同质性, 不同类之间的个体具有高度的异质性;

判别分析是对已知分类的数据建立由数值指标构成的分类规则即判别函数, 然后把这样的规则应用到未知分类的样本去分类

2、研究目的不同

虽然都是研究分类的,但在进行聚类分析前,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)。判别分析则是在总体类型划分已知的前提下,来判断当前新样本属于哪个总体的。

3.所具有的方法不同

聚类分析分两种:$Q$型聚类(对样品的聚类),$R$型聚类(对变量的聚类)。聚类分析需要注意的是,一般小样本数据可以用系统聚类法,大样本数据一般用快速聚类法($K$均值聚类法),当研究因素既有分类变量又有计量变量,可以用两步聚类。

判别分析有$Fisher$判别,$Bayes$判别和逐步判别。一般用$Fisher$判别即可,要考虑概率及误判损失最小的用$Bayes$判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,再结合实际情况选择用哪种判别方法.

4.对数据要求不同

聚类分析的方法基本上与分布理论和限制性检验无关,一般不从样本推断总体

判别分析的一个基本假设是每一个类别都应取自一个多元正态总体的样本,而且所有正态总体的协方差矩阵或相关矩阵都假定是相同的,否则可能要采用非线性判别函数

6.$PCA$的思想与方法?

思想:PCA在损失很少信息的前提下,通过线性变换将原始数据变换为一组各维度线性无关的综合变量(称为主成分),并且这些综合变量都是原始变量的线性组合

目的:为了节省计算机在进行计算时所占用的资源,在减少需要分析的指标的同时,尽量减少原指标包含信息的损失,并用随机变量的方差来代表保留信息的比重,以达到对所收集数据进行全面分析的目的。

方法:             

1.根据研究问题选取原始变量

2.根据初始变量的特性判断由协方差阵求主成分还是由相关阵求主成分

3.求协方差阵或相关阵的特征根和特征向量,并对特征向量进行规范正交化

4.判断是否存在明显的多重共线性,若存在,回到第一步

5.得到主成分的表达式并确定主成分的个数,选取主成分

6.结合主成分对研究问题进行分析并深入研究

7.$FA$的思想与方法?

1.思想:

根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构并用一个不可观测的综合变量来表示,这个基本结构就称为公共因子

2.方法: 

1.根据研究问题选取原始变量

2.标准化原始变量并求其相关阵,分析变量之间的相关性

3.求解初始公共因子以及因子载荷矩阵

4.因子旋转

5.计算因子得分

6.根据因子得分值进行进一步的分析

8.$PCA$与$FA$的区别与联系?

1.联系

(1)$PCA$是以方差度量保留的主成分的,使方差尽量大,$FA$中因子与原变量间有很高的相关性,且有很强的解释能力

(2)形式不同.$PCA$是$Y=UX$,而$FA$为$X=AF+e$

(3)$FA$除主成分法外还有其他方法,比如极大似然法

(4)$FA$最后要进行因子旋转

2.区别
(1)都是一种多维随机变量降维的方法

(2)$FA$求解初始因子时有一种方法是$PCA$

9.对应分析的基本思想和步骤

1.基本思想: 

首先分别在每组变量中找出第一对典型相关变量,使其具有最大相关性,然后找出第二对典型变量,使其分别与第一对典型相关变量不相关,第二对本身具有次大的相关性。如此下去,直到进行到R步,两组变量的相关关系被提取完为止,可以得到R组典型相关变量

2.方法步骤:

(1)数据标准化:$\frac{P_{ij}}{P_i\sqrt{p_{.j}}}$以及$\frac{P_{ij}}{P_j\sqrt{p_{i.}}}$

(2)按照行和列进行主成分分析

(3)对应分析结果中,协方差矩阵$ZZ’$和$Z’Z$有相同的特征值,特征向量之间有一定的关系,从而两者的特征向量可互化 

(4)一般选取前两个主成分作图分析

10.典型相关分析的思想和方法步骤?

1.思想:

对于两随机向量$X=(x_1,x_2,…,x_p)^T,Y=(y_1,y_2,…,y_q)^T$,取定$X$中的信息,$U_1=a_1x_1+…+a_px_p,V_1=b_1y_1+…+b_qy_q$,在一定条件下,寻找适当的系数$a$与$b$,使得$U_1$与$V_1$之间的相关系数的绝对值达到最大,这里的$U_1$与$V_1$是$X$与$Y$的第一对典型相关变量,可用相同的方法寻找第$i$对,$i=1,2,…,n$

2.方法步骤: 

对于$X$与$Y$的一对线性组合$U_1=a’X,V_1=b’Y$,利用拉格朗日乘子法求解使得$U_1$和$V_1$之间相关系数最大时的$a’$与$b’$这两个向量,即

$$max\rho_{U_1,V_1}=a’\Sigma_{12}b$$
$st.$
$$a’\Sigma_{11}a=1$$
$$b’\Sigma_{22}b=1$$

即: 

$$L(a,b,\lambda,\mu)=a’\Sigma_{12}b-\frac{\lambda}{2}(a’\Sigma_{11}a-1)-\frac{\mu}{2}(b’\Sigma_{22}b-1)$$

求解即得$a’$与$b’$的值 

此为简化版,适于答题,详细推导请戳这里!
https://fuhanshi.github.io/2018/11/08/%E5%85%B8%E5%9E%8B%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/#more

凡希 wechat
喜欢所以热爱,坚持干货分享,欢迎订阅我的微信公众号
呐,请我吃辣条